No. of Articles published per Year (all top 10 communities combined)

to see which years account for majority of the years presented in

Wie erwartet werden es immer mehr Veröffentlichungen pro Jahr. Im Jahr 2016 fanden auffällig viele Veröffentlichungen statt

No. of Articles per year for each Community

List the conference names for each venue Id

Dict with the original Venue Abbreviations

Show for each venue how many articles per community were published and use the venue Ids with the Abbreviations

Man sieht, dass die meisten Artikel jeder Community hauptsächlich in einem Venue presentiert werden.

Um die Artikel Communityübergreifend zu analyisieren, werden jetzt nur die Titel der Artikel genutzt. Könnte auch die Abstracts nehmen, aber das macht ja nicht so einen großen Unterschied, wie man in den einzelnen Analysen auch schon gesehen hat. Spart Memory und machts auch einfacher.

Wordcloud Visualization

Wordcloud for each community to see which are the most common terms and words tat appear in the titles of the articles. To get an idea of what the topics of the community are.

Visualizing titles of the articles onto 2D Space through t-SNE

  1. FastText Embedding der Title
  2. Reduktion der Dimensionen auf 2D mithilfe von t-SNE
  3. pyMagnitude für vektorisierung der Daten (jedes Word wird gewichtet nach dem entsprechenden Durchschnitt. Insgesammt entsteht ein 300-D Vektor) Gewichtungen mithilfe der Inverse Document Frequency (IDF) (Spiegelt wieder, wie oft das Wort im Verhältnis zu allen Wörtern vorkommmt) (Anzahl aller Dokumente) / (Anzahl der Dokumente, die das Wort beinhalten)

Inverse Document Frequency Vectors for each community (idf score assignment to each word)

Every paper title gets a vector based of the average of the specific word vectors (weighted by the idf scores)

Die Title Embeddings variieren über den ganzen 2D Raum. Aber man sieht, dass die einzelnen communities an manchen Stellen auch eng aneinander sind. 20178 ist auffällig seperiert von den anderen Gruppen (wäre interessant, das weiter zu investigieren). Es kristallisieren sich aus dieser Perspektive drei übergeordnete Communities. Eine sehr große oben, eine mittlere unten und die 20178 Gruppe. Was haben diese Gruppierungen gemeinsam? Sind diese vielleicht auch in ähnliche Themengebiete einteilbar?